抽象的多模式大语言模型(MLLM)在广泛的任务中表现出显着的功能,但是尽管它们在地理和地理空间领域中的知识和能力尚未探索,尽管尽管对导航,环境研究,城市发展,城市发展以及灾难响应的广泛收益,但仍有广泛的收益。我们进行了一系列实验,探讨了这些域内MLLM的各种视频功能,特别是专注于边境模型GPT-4V,并在开源对应物上标记了其性能。我们的方法论涉及通过小型的地理基准来挑战这些模型,该基准包括一系列视觉任务,测试了它们在各种综合性方面的能力。分析不仅揭示了此类模型脱颖而出的地方,包括超越人类的实例,而且还揭示了他们步履蹒跚的地方,在地理领域中提供了它们能力的平衡视图。为了启用对未来模型的副训练和评估,我们的基准将公开发布。1
![arxiv:2311.14656v3 [CS.CV] 2024年1月16日PDF文件第1页](/bimg/b/b8dfd8771cbebe876d8d933a19584f55f164e119.webp)
![arxiv:2311.14656v3 [CS.CV] 2024年1月16日PDF文件第2页](/bimg/7/733e7294ebc344608b857e44a79396ee42aae3a6.webp)
![arxiv:2311.14656v3 [CS.CV] 2024年1月16日PDF文件第3页](/bimg/9/9baddeb1f0edb9492919d4bb77e5e205bc68e692.webp)
![arxiv:2311.14656v3 [CS.CV] 2024年1月16日PDF文件第4页](/bimg/9/94f3e425f3dfe22c3214ab669142448d5d3f6126.webp)
![arxiv:2311.14656v3 [CS.CV] 2024年1月16日PDF文件第5页](/bimg/d/da60b89166fd650aa9dbc21062499a82682f60ec.webp)
